Tiêu chuẩn mpeg 4 là gì? Các nghiên cứu khoa học liên quan
MPEG-4 là tiêu chuẩn mã hóa đa phương tiện ISO/IEC 14496, cho phép nén và truyền tải audio, video, đồ họa và văn bản trong cùng một cấu trúc. Tiêu chuẩn này hỗ trợ mô hình object-based phân tách thành phần media, tích hợp bảo mật DRM, streaming đa mạng và định dạng container .mp4 linh hoạt.
Giới thiệu MPEG-4
MPEG-4 là một tiêu chuẩn mã hóa đa phương tiện do ISO/IEC phát triển, được chính thức công bố dưới số hiệu ISO/IEC 14496. Tiêu chuẩn này mở rộng khả năng nén so với MPEG-2, cho phép lưu trữ và truyền tải nội dung audio, video, đồ họa và dữ liệu tương tác trong cùng một cấu trúc.
Không chỉ tập trung vào hiệu suất nén, MPEG-4 còn hướng đến việc hỗ trợ các tính năng tương tác, phân tách đối tượng media (object-based) và bảo mật nội dung. Điều này giúp tiêu chuẩn trở thành nền tảng cho nhiều ứng dụng từ truyền hình số, streaming trực tuyến đến các hệ thống hội nghị truyền hình.
- Định danh: ISO/IEC 14496
- Mục tiêu: Nén cao, hỗ trợ tương tác
- Phạm vi: Âm thanh, video, đồ họa, dữ liệu
Lịch sử và quá trình phát triển
Quá trình thiết kế MPEG-4 bắt đầu vào cuối thập niên 1990, dưới sự chủ trì của Ban kỹ thuật ISO/IEC JTC1/SC29/WG11. Nhóm MPEG (Moving Picture Experts Group) đã đặt ra mục tiêu tạo ra một tiêu chuẩn tích hợp đa năng, có khả năng mở rộng dễ dàng và tương thích với hạ tầng mạng Internet đang phát triển.
Phiên bản đầu tiên của MPEG-4 (Parts 1–5) được công bố trong giai đoạn 1999–2000. Tiếp theo đó, từ năm 2001 đến nay, lần lượt các phần mở rộng (Parts 6–20) được phát hành nhằm bổ sung hỗ trợ streaming, bảo mật, 3D graphics và nhiều tính năng khác.
Năm | Phiên bản/Phần | Nội dung chính |
---|---|---|
1999 | Part 1–5 | Hệ thống, video, audio, giao thức |
2002 | Part 6–10 | Interactive streaming, bảo mật |
2005–2020 | Part 11–20 | 3D, VR, nâng cao chất lượng |
Cho đến nay, MPEG-4 vẫn được duy trì và cập nhật, đảm bảo tương thích với xu hướng phát triển của codec mới như HEVC, AV1 và VVC.
Kiến trúc kỹ thuật và cấu trúc phân cấp
MPEG-4 được thiết kế theo mô hình phân cấp, chia thành các phần (Parts) chịu trách nhiệm cho từng chức năng cụ thể. Ví dụ, Part 1 quy định hệ thống (Systems), Part 2 dành cho video (Visual), Part 3 dành cho âm thanh (Audio), và Part 11 dành cho định dạng cảnh (BIFS).
Mô hình object-based cho phép tách riêng từng đối tượng media (hình ảnh, âm thanh, văn bản, đồ họa) và gán các đặc tính, hành vi riêng cho chúng. Qua đó, người phát triển có thể tương tác hay thay đổi nội dung của từng đối tượng mà không ảnh hưởng đến toàn cảnh.
Ví dụ công thức tính bitrate video trong môi trường phân cấp:
- f: Số khung hình trên giây (fps)
- W, H: Chiều rộng và cao của khung hình (pixel)
- bpp: Số bit trên mỗi pixel
Công cụ mã hóa video
Phần 2 của MPEG-4, còn gọi là MPEG-4 Visual, định nghĩa các profile và cấp độ (profiles & levels) để điều chỉnh mức độ phức tạp và khả năng tương thích. Các profile phổ biến gồm Simple Profile và Advanced Simple Profile (ASP).
Những kỹ thuật chính sử dụng trong mã hóa video bao gồm biến đổi DCT (Discrete Cosine Transform), bù chuyển động (motion compensation), nội suy điểm ảnh (fractional-pel motion) và khung hình B (B-frames). Sự kết hợp này giúp tăng tỷ lệ nén mà vẫn giữ được chất lượng hình ảnh cao.
- DCT & IDCT
- Motion Compensation (MC)
- Fractional-pel interpolation
- B-frames và P-frames
Nhiều codec thương mại và mã nguồn mở như DivX, XviD, H.263 cũng được xây dựng trên nền tảng Part 2 của MPEG-4, nhờ đó mà tiêu chuẩn này trở nên phổ biến rộng rãi trong các ứng dụng giải trí và streaming trực tuyến.
Mã hóa âm thanh
Phần 3 của MPEG-4, mang tên MPEG-4 Audio, giới thiệu nhiều kỹ thuật mã hóa âm thanh tiên tiến như AAC (Advanced Audio Coding), HE-AAC (High-Efficiency AAC), AAC-LD (Low Delay AAC), CELP (Code-Excited Linear Prediction) và TwinVQ (Transform-domain Weighted Interleave Vector Quantization). Những thuật toán này cho phép giảm đáng kể bitrate mà vẫn duy trì chất lượng âm thanh cao gần tương đương CD ở mức ~96 kbps cho AAC LC.
Trong đó, AAC LC (Low Complexity) là profile phổ biến nhất, hỗ trợ đa kênh (tối đa 48 kênh) và mẫu tín hiệu lên đến 96 kHz. HE-AAC bổ sung Spectral Band Replication (SBR) để cải thiện chất lượng tần số cao ở bitrate thấp (< 64 kbps), trong khi AAC-LD tối ưu cho ứng dụng hội nghị truyền hình với độ trễ rất thấp (~20 ms).
- AAC LC: Chất lượng cao, độ trễ thấp, sử dụng trong streaming và phát nhạc.
- HE-AAC: Tối ưu cho bitrate thấp, dùng trong radio Internet và di động.
- AAC-LD: Thích hợp hội nghị truyền hình, VoIP.
- CELP & TwinVQ: Dùng cho thoại, nhạc đơn âm và nhạc codec cố định.
Tiêu chuẩn chi tiết có thể tham khảo tại ISO/IEC 14496-3, cung cấp thông số profile, cấp độ cũng như mô tả cấu trúc khung bitstream và giải thuật giải mã.
Mã hóa đối tượng và BIFS
Part 11: Binary Format for Scenes (BIFS) định nghĩa cách biểu diễn cảnh 2D/3D dưới dạng nhị phân, cho phép mô tả cấu trúc, thuộc tính và hành vi của từng đối tượng media. BIFS tận dụng mô hình object-based, giúp tách riêng hình ảnh, âm thanh, văn bản, đồ họa và các hiệu ứng tương tác.
Cấu trúc BIFS bao gồm:
- Nodes: Các thành phần cơ bản như Shape, Transform, Material.
- Fields: Thuộc tính của nodes (màu sắc, kích thước, vị trí, hành vi).
- Events: Cơ chế tương tác (click, hover, trigger animation).
Bằng cách sử dụng BIFS, nhà phát triển có thể tạo các nội dung tương tác phức tạp như menu động, đối tượng 3D có thể xoay/chỉnh sửa, và các kịch bản đa phương tiện tương tác thời gian thực. Để tìm hiểu chi tiết, xem ISO/IEC 14496-11.
Hỗ trợ truyền phát và giao thức
MPEG-4 tích hợp nhiều phần mở rộng hỗ trợ truyền phát đa phương tiện trên Internet và mạng chuyên dụng. Part 6 (Delivery Multimedia Integration Framework – DMIF) xác định giao diện giữa ứng dụng và lớp vận chuyển, cho phép đóng gói và truyền các đối tượng media qua nhiều mạng khác nhau.
Part 13 (IPMP) cung cấp cơ chế quản lý bản quyền và bảo vệ nội dung (DRM), đảm bảo an toàn cho file media và giới hạn quyền truy cập. Part 15 (MPEG-4 File Format) định nghĩa cấu trúc container (.mp4), tương thích với các giao thức streaming như RTP/RTSP (Part 10) và DASH (Dynamic Adaptive Streaming over HTTP).
Part | Nội dung | Ứng dụng |
---|---|---|
Part 6 | DMIF | Truyền phát đa mạng |
Part 10 | RTP/RTSP Streaming | Phát trực tuyến thời gian thực |
Part 13 | IPMP | DRM, bảo vệ nội dung |
Part 15 | File Format (.mp4) | Container đa phương tiện |
Nhờ những phần này, MPEG-4 trở thành tiêu chuẩn phổ biến cho streaming OTT, phát thanh trực tuyến, và các dịch vụ video theo yêu cầu.
Hồ sơ và cấp độ (Profiles & Levels)
Profiles xác định tập hợp các công cụ mã hóa được phép sử dụng, trong khi Levels giới hạn các tham số như bitrate, độ phân giải và tốc độ khung hình. Ví dụ:
- Simple Profile: Hỗ trợ video cơ bản, không có B-frames.
- Advanced Simple Profile (ASP): Bao gồm B-frames, quarter-pel motion, tính năng nâng cao.
- Profiles Audio: AAC LC, HE-AAC.
Levels từ 0 đến 5 điều chỉnh độ phân giải (QCIF, CIF, VGA, HD, Full HD) và bitrate tối đa. Cấu hình này đảm bảo thiết bị phát và mã hóa tương thích và tránh quá tải xử lý.
Ứng dụng thực tiễn
MPEG-4 được áp dụng rộng rãi trong nhiều lĩnh vực:
- Truyền hình số: Tiêu chuẩn DVB sử dụng MPEG-4 cho cả video và audio.
- Đĩa quang: Blu-ray và HD DVD hỗ trợ codec MPEG-4 Visual và AAC.
- Streaming OTT: Netflix, YouTube, Amazon Prime sử dụng MP4 container kết hợp H.264/HE-AAC.
- Hội nghị trực tuyến: Skype, Zoom tận dụng AAC-LD và profile ASP để tối ưu độ trễ và chất lượng.
Trong lĩnh vực thực tế ảo (VR) và tăng cường (AR), MPEG-4 liên tục được mở rộng để hỗ trợ đồ họa 3D (Part 20) và streaming độ phân giải cao (4K/8K, HDR).
Tương quan với các tiêu chuẩn khác và xu hướng tương lai
So sánh với MPEG-2, MPEG-4 cung cấp tỷ lệ nén cao hơn 50–60% ở cùng chất lượng video. Tuy nhiên, H.264/AVC (MPEG-4 Part 10) và HEVC/H.265 nâng cấp hơn nữa, giảm thêm 40–50% bitrate. Tiêu chuẩn mới như AV1, VVC (H.266) tiếp tục đẩy giới hạn nén, trong khi MPEG-DASH (Part 19) cải thiện khả năng thích ứng bitrate.
Tương lai của MPEG-4 nằm ở việc tích hợp codec neural, hỗ trợ VR/AR nâng cao và tối ưu cho streaming đa điểm. Các phần mở rộng 3D Graphics Coding (Part 20) và hình ảnh tĩnh (MPEG-4 Image) được kỳ vọng sẽ mang lại trải nghiệm phong phú hơn cho người dùng.
Tài liệu tham khảo
- ISO/IEC 14496-3:2005, “Information technology — Coding of audio-visual objects — Part 3: Audio.” ISO.
- ISO/IEC 14496-11:2005, “Information technology — Coding of audio-visual objects — Part 11: Scene description.” ISO.
- ISO/IEC 14496-6:2004, “Information technology — Coding of audio-visual objects — Part 6: Delivery Multimedia Integration Framework.” ISO.
- ISO/IEC 14496-10:2008, “Information technology — Coding of audio-visual objects — Part 10: Advanced Video Coding.” ISO.
- ISO/IEC 14496-13:2005, “Information technology — Coding of audio-visual objects — Part 13: Intellectual property management and protection.” ISO.
- ISO/IEC 14496-15:2004, “Information technology — Coding of audio-visual objects — Part 15: MP4 file format.” ISO.
- Schulzrinne H. et al., “RTP: A Transport Protocol for Real-Time Applications,” RFC 3550, 2003. IETF.
- Stockhammer T., “Dynamic Adaptive Streaming over HTTP – Standards and Design Principles,” 2011. IEEE.
Các bài báo, nghiên cứu, công bố khoa học về chủ đề tiêu chuẩn mpeg 4:
- 1